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摘要 : [目的 /意义 ] 为 克服 关键 词 绝 对 词 频 分 析 的 局 限 性 ,以 关键 词 多 因素 加 权 及 得 分 排名 实现 领域 热点 
与 趋势 探索 。[ 方 法 /过 程 ] 构 建 年 度 -关键 词 频次 给 阵 ,用 水 平 加 权 和 重 直 加 权 处 理 关 键 词 词 频 ,设计 相对 词 
频 模型 ,计算 关键 词 加 权 综 合 分 值 ,以 获得 更 有 效 的 关键 词 排序 。[ 结果 /结论 ] 基 于 关键 词 加 权 排 序 , 可 以 识别 
量 高 质 优 再 、 量 低 质 优 再 和 突变 型 关键 词 , 有 利于 挖掘 研 究 热点 和 分 析 趋 势 。 
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热点 研究 趋势 分 析 


DD 关键 词 是 表达 文献 主题 概念 的 自然 语言 词汇 。 一 
侍 澡 术 研究 领域 较 长 时 域内 大 量 学 术 研 究 成 果 的 关键 
育 集 合 ,可 以 揭示 研究 成 果 的 内 容 特 征 , 了 解 学 术 研 究 
的 发 展 脉络 与 发 展 方向 "。 因 此 ,统计 关键 词 在 某 一 
类 学 术 文献 中 所 出 现 的 频次 ,可 以 判别 该 学 术 领 域 的 
研究 热点 ,分 析 发 展 趋势 ”。 词 频 分 析 法 是 基于 统计 
数据 ,具有 客观 性 、 准 确 性 ;在 一 定 程度 上 摆脱 定性 方 
活 的 个 人 主观 性 而 更 具有 可 信 性 ,因而 被 广泛 地 应 用 
于 独 示 各 学 科 领 域 的 研究 热点 和 发 展 动态 。 

< 随 着 词 频 分 析 法 广泛 应 用 于 各 学 科 领 域 ,该 类 文 
献 罚 数量 不 断 增加 ,但 同时 也 呈现 出 较为 严重 的 方法 
洲 居 及 模板 化 现象 。 部 分 研究 仅 限于 对 词 频 的 简单 
统 这 和 粗略 分 析 , 不 能 通过 其 数据 结果 揭示 出 学 科 领 
域 知识 的 内 在 规律 。 词 频 分 析 法 具有 广泛 的 应 用 性 和 
推广 性 ,但 其 应 用 存在 一 些 棘 端 ,因此 需要 对 词 频 分 析 
法 本 身 进行 完善 与 研究 。 笔 者 结合 年 度 总 词 频数 和 该 
关键 词 总 词 频数 ,提出 加 权 关 键 词 模 型 ,以 更 为 准确 客 
观 地 揭示 学 科 热点 和 趋势 。 同 时 ,以 我 国 图 书 情报 学 
研究 领域 为 例 ,验证 该 方法 的 有 效 性 。 


1 相关 研究 


词 频 分 析 法 是 基于 揭示 或 表达 文献 核心 内 容 的 关 
键 词 或 主题 词 在 某 一 研究 领域 文献 中 出 现 的 频次 高 低 
来 确定 该 领域 研究 热点 和 发 展 动向 的 文献 计量 学 方 


法 ”。 虽 然 热点 分 析 类 文章 常用 词 频 分 析 法 .引文 分 
析 法 文献 增长 率 等 多 种 文献 计量 方法 ,而 应 用 词 频 分 
析 法 的 文献 占 所 有 应 用 了 各 类 文献 计量 学 的 热点 分 析 
类 文献 的 61% ,是 热点 分 析 类 文献 最 常用 的 文献 计量 
方法 ”。 同 时 ,在 应 用 词 频 分 析 的 文献 中 ,以 关键 词 作 
为 词 频 分 析 统 计 要 素 的 相关 文献 占有 绝对 比例 ,取决 
于 关键 词 具 有 直接 获得 和 无 需 分 词 的 特点 ” 。 

多 数 研究 成 果 以 关键 词 的 自然 频率 作为 研究 的 基 
础 和 依据 ,考虑 到 关键 词 的 非 规 范 化 问题 ,部 分 研究 成 
果 从 关键 词 频次 计算 ,关键 词 选择 .结果 分 析 三 个 方面 
改进 计量 方法 以 准确 揭示 词 频 波动 规律 。 在 改进 关键 
词 频 次 计算 方面 ,对 于 基于 绝对 词 频 的 统计 分 析 , 倪 丽 
娟 运用 词 频 绝对 值 描述 研究 现状 和 揭示 热点 趋势 ” 。 
在 基于 样本 总 量变 化 引起 误差 的 算法 改进 方面 ,为 消 
除 不 同年 份 论文 数 波动 所 造成 的 影响 , 印 均 平 利用 篇 
均 关 键 词 频次 ,以 关键 词 各 年 出 现 的 频次 除 以 当年 的 
文献 总 数量 来 判断 其 增长 或 衰减 情况 ”。 巩 永 强 基 于 
关键 词 频率 探究 变化 趋势 , 即 某 一 关键 词 占 当 年 关键 
词 总 数 的 比例 ”。 基 于 不 同样 本 的 数据 处 理 , 苍 安 宇 
提出 关键 词 频次 标准 化 处 理 Z-Score, 以 消除 国内 外 文 
献 数 相差 较 大 造成 的 影响 ”。 在 改进 关键 词 选 择 方法 
方面 ,对 于 基于 研究 领域 特有 特征 的 热点 分 析 ， 
G. Chen 等 结合 关键 词 的 人 气 指 数 和 领域 关联 度 指 标 
来 选择 关键 词 ”。 在 基于 低频 项 加 权 方 面 ,E. S. Atlam 
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等 提出 负 权 函数 和 负 加 权 反 动词 频率 函数 ,提高 关键 
词 回收 率 和 精确 度 " 。G. Chen 等 比较 传统 术语 频率 
(TF) 方 法、TF - 逆 文 档 频率 (TF-IDF) 和 TF -关键 字 
活动 指数 (TF-KAI) 这 三 种 方法 ,得 出 下 -KAI 在 关键 
i 出 色 '" 。 在 结果 分 析 改 
进 方面 ， 时 等 按照 关键 词 词 频 划 分 为 低频 区 .中 频 
区 \ 高 频 区 Re 
文献 内 在 规律 及 研究 热点 ”。 上 述 方法 适用 不 同 应 


| 


用 场景 ,然而 目前 文献 在 处 理 绝对 词 频 时 , 均 立 足 于 年 
度 总 词 频 和 年 度 总 论文 数 对 关键 词 频 的 影响 ,并 未 考 
虑 自身 占 比 情 况 。 自 身 占 比 能 兼顾 削弱 词 频 在 数值 上 
的 优势 , 且 反 映 出 自身 变化 率 。 笔 者 结合 年 度 总 词 频 
数 和 该 关键 词 总 词 频数 ,提出 加 权 关 键 词 模型 ,探索 新 
的 研究 思 


2 加 要 关键 相对 词 虎 寅 


〇 关键 词 年 度 分 布 可 以 反映 历年 的 研究 重点 ,而 关 
二 可 以 了 押 入 鹤 点 ， 笔者 将 关键 
证 种 度 分 布 和 关键 词 每 年 词 频 比重 有 机 结合 ,首先 构 
建 第 度 - 关键 词 的 词 频 符 阵 ,依据 矩阵 水 平 与 垂直 两 
人 维度 加 权 处 理 关键 词 词 频 ， 得 到 相对 词 频 计算 公式 ， 
0 蕉 确 反映 关键 词 的 年 度 分 布 。 然后 ,确定 综合 加 
极 丑 刍 词 排序 分 数 ,获得 更 有 效 的 关键 词 排序 。 笔 者 
将 说 方 法 称 为 加 权 关 键 词 相 对 词 频 模型 ( Weighted 
Re 十 ive Keyword Frequency Model, WRKFM ) 。 
相对 词 频 计算 

己 构建 年 度 -关键 词 的 词 频 和 矩阵 ,定义 函数 /(i,j) 
为 第 j 年 关键 词 i 的 频次 ,那么 所 有 年 所 有 关键 词 的 频 
次 可 以 用 矩阵 (1) 来 表示 : 


下 

fn,l) 1 fln,m) 
为 反映 相同 年 度 不 同 关键 词 频次 强度 及 不 同年 度 

相同 关键 词 频次 强度 ,对 关键 词 频数 进行 两 个 维度 加 

权 处 理 : 
《1) 垂 直 加 权 , 即 关键 词 当 年 词 频 除 以 当年 总 词 

频 。 设 定 nj 为 第 j 年 总 关键 词 量 ,反映 到 矩阵 (1) 中 ， 


* fll,m) 


和 矩阵 (1 ) 


即 拭 阵 (1) 第 7 列 元 素 均 乘 以 ,用 逢 阵 (2) 来 表示 ; 
[A xe + f(1,m) es m) 
[A ee Ly * fl(n,m) La Wy 


和 矩阵 (2) 


(2) 水 平 加 权 , 计 算 某 关键 词 当年 词 频 在 该 关键 
词 统计 时 间 段 内 总 数 占 比 。 设 定 m; 为 关键 词 i 总 频 


次 ,反映 到 和 矩 阵 (1) 中 , 即 矩 阵 (1) 第 i 行 元 素 均 乘 以 
二 ,用 矩阵 (3) 来 表示 : 
网 Win 
Rd 1) . fl(n,m) un) m) 
矩阵 (3) 


2.2 加权 关键 词 相对 词 频 模 型 设计 
根据 矩阵 (2) 和 和 矩阵 (3) ,加 权 关 键 词 相 对 词 频 模 
型 可 用 和 矩阵 (4) 来 表示 : 


en dll) 


fll,m) x {sm) x {sm) 


和 矩阵 (4 ) 

为 得 出 更 加 科学 、 客 观 、 准 确 的 数据 结果 ,并 将 其 
有 效 转化 为 知识 结论 ,笔者 设计 的 WRKFM 计算 步 又 
如 下 : 

步骤 1: 确 定时 域 ,统计 关键 词 及 其 频次 ,构建 年 
度 -关键 词 的 词 频 矩 阵 ,计算 矩阵 (4) 的 结果 ; 

步骤 2: 计 算 和 矩阵 (4) 中 每 行 元 素数 值 之 和 , 即 n 
个 关键 词 的 相对 词 频 W ,进行 由 高 到 低 的 排序 ,得 出 高 
频 关 键 词 ; 

步骤 3 :单独 观察 矩阵 (4) 每 行 的 数值 ,并 描绘 
其 变化 趋势 , 即 为 关键 词 的 相对 词 频 变化 趋势 ,以 预测 
发 展 趋势 ; 

步骤 4: 根 据 步骤 2 排序 名 次 ,分 析 其 与 原 绝 对 词 
频 排序 名 次 之 差 , 有 利于 监测 突变 型 关键 词 。 
该 模型 的 主要 特点 具体 如 下 :中 相对 词 频 增加 了 
某 年 度 词 频 比重 的 影响 力 ,克服 单一 从 样本 容量 改进 
词 频 的 不 足 。 因 此 , 若 时 域内 某 关 键 词 的 总 绝对 词 频 
高 且 总 体 变化 大 , 则 其 相对 词 频 较 大 ;@ 相 对 词 频 突显 
某 年 度 对 该 关键 词 在 该 年 占 比 大 且 绝 对 频次 高 的 数 
据 ,弱化 绝对 词 频 低 的 数据 ,更 易于 探测 出 具有 发 展 潜 
。 @ 低 词 频 的 相对 词 累 计 频 排名 变化 量 与 
突变 主题 类 型 有 表征 关系 ,可 侧面 探测 突变 词 ,补充 低 
频 词 i 
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3 ”实证 分 析 词 ,以 下 研究 选取 绝对 词 频 大 于 等 于 5 的 关键 词 ( 共 


2 164 个 )。 
利用 上 述 模 型 ,对 图 情 领域 文献 进行 对 比分 析 。 3.1 关键 词 加 权 计 算 
在 CNKI 和 CSSCI 上 下 载 2012 -2016 五 年 间 的 18 种 


按照 矩阵 (4) 对 关键 词 进行 加 权 计 算 , 列 出 2012 
图 情 领 页 域 核心 期 刊 刊载 的 文献 信息 ,人 工 去 除 无 作者 、 _2016 五 年 内 相对 词 频 值 排名 前 50 的 关键 词 ,如 表 1 
通讯 稿 . 征 文稿 等 非 学 术 类 期 刊 文献 ,经 统计 、 去 重 得 


所 示 : 
到 24 618 篇 文献 。 使 用 EXCEL 统计 ,最 终 得 到 34 553 
个 关键 词 ,人 工 合并 82 组 同义词 ,去除 120 个 无 意义 
表 1 绝对 词 频 与 加 权 相 对 词 频 部 分 结果 


绝对 词 频 相对 词 频 


排序 关键 词 
2016 年 2015 年 2014 年 2013 年 2012 年 累计 总 和 2016 年 2015 年 2014 年 2013 年 2012 年 累计 总 和 

1 图 书馆 294 298 341 420 447 1800 0.750 0.830 1.107 1.976 2.325 6.988 
2 高 校 图 书馆 304 238 272 329 308 1451 1.029 0.525 0.697 1.178 0.943 4.373 
3 公共 图 书馆 176 190 198 198 188 950 0.305 0.408 0.411 0.392 0.328 1.843 
大 数据 174 109 93 53 9 438 0.639 0.167 0.092 0.016 0.000 0.915 
数字 图 书馆 60 72 100 111 190 533 0.022 0.040 0.094 0.123 0.603 0.881 
信息 服务 54 63 85 93 114 409 0.020 0.035 0.075 0.094 0.170 0.395 
网 络 幅 情 83 64 83 51 43 324 0.094 0.046 0.089 0.020 0.011 0.259 
图 书馆 学 36 63 87 57 75 318 0.008 0.044 0.104 0.028 0.062 0.246 
阅读 推广 83 78 52 45 26 284 0.107 0.094 0.025 0.015 0.003 0.245 
竞争 情报 39 46 56 62 98 301 0.010 0.018 0.029 0.038 0.146 0.243 
知识 管理 30 31 44 72 82 259 0.006 0.006 0.017 0.069 0.100 0.197 
知识 服务 43 38 55 77 70 283 0.015 0.011 0.030 0.077 0.057 0.190 
云 计算 18 31 54 59 81 243 0.001 0.007 0.033 0.041 0.102 0.184 
影响 因素 71 42 53 53 68 287 0.066 0.015 0.026 0.025 0.051 0.183 
微 博 42 51 57 74 58 282 0.014 0.027 0.033 0.069 0.032 0.175 
美国 62 49 69 50 41 271 0.047 0.025 0.061 0.022 0.012 0.166 
学 科 服 务 44 39 50 66 61 260 0.017 0.013 0.024 0.053 0.041 0.148 
本 体 34 42 43 60 70 249 0.008 0.017 0.016 0.042 0.065 0.147 
社会 网 络 分 析 38 45 61 54 60 258 0.011 0.020 0.044 0.029 0.039 0.144 
情报 学 28 40 54 46 66 234 0.005 0.015 0.034 0.020 0.058 0.132 
1 学 科 馆 员 26 21 35 40 74 196 0.005 0.003 0.011 0.016 0.097 0.131 
22 知识 图 谱 52 38 49 54 57 250 0.030 0.012 0.024 0.030 0.035 0.131 
23 图 书馆 服务 53 45 56 49 47 250 0.032 0.021 0.035 0.023 0.019 0.130 
24 文献 计量 49 刘 43 53 48 214 0.029 0.002 0.019 0.033 0.024 0.108 
25 知识 共享 31 26 43 47 59 206 0.008 0.005 0.019 0.024 0.047 0.103 
26 移动 图 书馆 32 39 52 47 27 197 0.009 0.017 0.036 0.025 0.005 0.092 
27 可 视 化 34 36 51 48 27 196 0.011 0.013 0.034 0.027 0.005 0.090 
28 关联 数据 48 38 36 42 33 197 0.030 0.016 0.012 0.018 0.009 0.084 
29 到 书馆 联盟 27 22 29 54 45 177 0.006 0.003 0.007 0.043 0.024 0.083 
30 大 学 图 书馆 30 37 36 48 33 184 0.008 0.016 0.013 0.029 0.009 0.074 
31 信息 资源 14 11 2) 44 48 139 0.001 0.001 0.004 0.029 0.037 0.072 
32 专利 分 析 28 24 51 34 28 165 0.007 0.005 0.040 0.011 0.006 0.070 
33 服务 模式 21 20 38 37 47 163 0.003 0.003 0.017 0.015 0.030 0.067 
34 信息 素养 44 27 31 37 36 175 0.026 0.006 0.009 0.014 0.012 0.067 
35 引文 分 析 28 21 33 42 43 167 0.007 0.003 0.011 0.021 0.022 0.065 
36 共 词 分 析 32 20 43 30 34 159 0.011 0.003 0.025 0.008 0.012 0.059 
37 实证 研究 30 14 30 45 29 148 0.010 0.001 0.009 0.030 0.008 0.057 
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( 续 表 1) 
绝对 词 频 相对 词 频 
排序 关键 词 
2016 年 2015 年 2014 年 2013 年 2012 年 累计 总 和 2016 年 2015 年 2014 年 2013 年 2012 年 累计 总 和 
38 信息 检索 21 25 34 24 46 150 0.003 0.006 0.013 0.004 0.030 0.057 
39 微 信 39 28 31 11 0 109 0.029 0.011 0.014 0.001 0 0.055 
40 机 构 知识 库 24 31 42 24 26 147 0.005 0.011 0.025 0.005 0.006 0.052 
41 数据 挖掘 22 30 29 31 40 152 0.004 0.010 0.008 0.009 0.020 0.051 
42 图 书馆 员 20 25 35 32 36 148 0.003 0.006 0.015 0.011 0.015 0.049 
43 社会 网 络 15 18 29 37 37 136 0.001 0.002 0.009 0.018 0.017 0.048 
44 企业 25 17 22 31 41 136 0.006 0.002 0.004 0.011 0.024 0.046 
45 数字 资源 25 23 33 32 34 147 0.006 0.005 0.012 0.011 0.013 0.046 
46 科学 数据 35 28 28 26 8 125 0.018 0.010 0.009 0.007 0.000 0.044 
47 全 民 阅 读 36 31 24 10 20 121 0.020 0.014 0.006 0.000 0.003 0.044 
48 电子 政务 25 9 pp 35 35 126 0.007 0.000 0.004 0.016 0.016 0.043 
49 突 发 事件 38 29 23 17 17 124 0.024 0.011 0.005 0.002 0.002 0.043 
人 信息 行为 22 28 36 30 23 139 0.004 0.009 0.017 0.009 0.004 0.043 


RATE 天 名 
排名 突出 的 包括 传统 研究 方向 和 研究 热点 。 
传统 研究 包括 “高 校 图 书馆 “公共 图 书馆 “数字 

二 馆 “ 信 息 未 养 … 信 息 检 索 ”“ 知 识 管理 ”。 
Di 究 热 点 具有 以 下 主题 :D 图 书馆 服务 ,包括 * 信 
请 务 “阅读 推广 “知识 服务 “学 科 服 务 “ 学 科 信 
站 > 知识 共享 “移动 图 书馆 ”“ 图 书包 联盟 "等 ;@ 情 
振 淖 工具 与 应 用 ,包括 “去 计算”“ 社 会 网 络 分 析 “ 况 
争 情报 "知识 图 谱 "“ 文 献计 量 "“ 可 视 化 “数据 挖 
据 和 ;信息 资源 ,包括 “大 数据 “网 络 与 情 "“ 关 联 
数 秘 “机 构 数据 库 “ 社 会 网 络 “ 电 子 政务 “ 突 发 事 
件 s.。 
;地 加 权 关 键 词 相对 词 频 变化 趋势 

二 相 较 于 绝对 词 频 变化 趋势 ,相对 词 频 的 变化 趋势 
视觉 效果 更 佳 ,对 该 关键 词 的 某 年 占 比 大 且 绝 对 频次 
高 的 数据 更 为 敏感 ,倾斜 程度 更 大 ,同时 弱化 绝对 词 频 
较 小 的 年 度 词 频 ,以 便 容易 抓 取 变 化 率 大 的 关键 词 ,更 
容易 探测 出 具有 发 展 潜力 的 关键 词 。 从 图 1 中 可 以 看 
出 ,“ 大 数据 "在 2016 年 大 幅 上 升 ,其 绝对 词 频 为 174， 
约 为 5 年 总 词 频 的 40% ,因此 “大 数据 "是 量 高 质 优 型 
关键 词 ,突显 出 相对 词 频 变 化 图 对 量 高 质 优 型 关键 词 
的 有 效 抓 取 。“ 阅 读 推广 ”的 绝对 词 频 在 2012 - 2014 
F 量 低 .增长 率 显著 ,在 2014 - 2016 年 量 高 .增长 组 
慢 ,在 图 2 中 表现 为 前 端 发 展 平缓 .后 段 发 展 迅猛 , 表 
现 出 相对 词 频 变化 图 对 关键 词 的 宏观 把 握 。 
图 1 和 图 2 可 得 :增长 型 关键 词 有 “大 数 
据 “ 阅 读 推广 “网 络 与 情 ”, 如 “大 数据 "和 "网 络 与 
情 ?呈现 出 不 同 的 增长 方式 “大 数据 是 快速 增长 状 


全 


综合 


态 ,从 2012 年 的 9 次 到 2016 年 的 174 次 ， 网 络 与 情 ” 
是 缓慢 增长 状态 ,此 类 关键 词 的 增长 与 现行 科研 大 环 
境 相 吻合 ,时 代 需 求 结合 紧密 ;加 波动 型 有 “公共 图 书 
馆 “ 高 校 图 书馆 “知识 管理 ", 如 “高 校 图 书馆 "在 
2013 年 处 于 波峰 ,2015 年 处 于 波 底 谷 ,2012 年 和 2016 
年 数量 大 致 持平 ;@@ 下 降 型 有 “竞争 情报 “知识 服务 " 
“学 科 服务 “社会 网 络 分 析 ”, 如 "竞争 情报 "从 2012 
年 的 98 次 到 2016 年 的 39 次 ,昌明 显 下 滑 状态 ,该 主 
题 在 本 研究 设 定时 间 域 之 前 属于 热点 ,但 后 续 研究 热 
度 下 降 。 增 长 型 关键 词 更 大 概率 成 为 未 来 研究 趋势 
图 1 和 图 2 中 的 曲线 表明 ,波动 型 和 下 降 型 占 比 较 大 ， 


需要 扩大 关键 词 范围 ,以 检索 更 多 增长 型 关键 词 ,以便 
更 好 地 预测 未 来 研究 趋势 。 
2.500 一 
一 各 一 高 校 图 书馆 
一 上 一 公共 图 书馆 
2.000 
一 一 大 数据 
一 一 数字 图 书馆 
1.500 一 8 一 信息 服务 
一 一 网 络 与 情 
1.000 一 一 图 书馆 学 
一 一 阅读 推广 
0.500 
0.000 


图 1 相对 词 频 变 化 趋势 部 分 统计 
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0.180 一 0 一 信息 服务 3.3 WRKFM 与 关键 词 仿真 结果 对 比 
A 一 一 3.3.1 高 频 关键 词 实验 结果 “针对 相对 词 频 排序 前 
下 100 的 关键 词 ,对 比 相 对 词 频 的 排名 和 绝对 词 频 的 排 
0 名 ,选取 两 者 排名 差 绝 对 值 前 10 名 的 关键 词 得 到 表 2。 
Fe 其 中 , 表 2 中 负数 为 该 关键 词 在 相对 词 频 中 排名 低 于 
Re 绝对 词 频 排名 , 正 数 则 相反 。 
Ee 根据 表 2 ,抽取 累计 绝对 词 频 总 和 相当 的 关键 词 
Ee 对 进行 分 析 ( 见 表 3) :DD "数据库 ”与 “情报 分 析 ”,“ 数 
SA 据 库 ” 于 2012 年 度数 值 突出 ,后 4 年 明显 递减 ,而 “ 情 
a 报 分 析 ” 的 最 大 值 较 小 ,但 总 体 都 处 于 较 高 的 水 平 。 虽 
ee 然 两 者 的 绝对 词 频 相 同 ,但 是 “情报 分 析 ” 的 相对 词 频 
a 明显 高 于 “数据库”( 见 图 3) 。@ “信息 需求 "与 “社交 
ea 网 络 ”, 昌 两 者 的 总 量 和 分 布 基本 相似 ,但 “信息 需求 
Te 2 的 极端 值 与 平均 值 相差 较 大 ,影响 了 相对 词 频 的 累计 
可 ee 总 和 ( 见 图 4)。(B@)“ 读 者 服务 ”和 “ 微 信 ” ,虽然 “ 微 信 ” 
a 的 2012 年 度 值 为 0, 但 其 增长 趋势 较 大 ,突显 其 发 展 潜 
三 表 2 高 频 关键 词 排名 对 比 情况 
Ci 数据 库 。 对 第 国家 图 书馆 。 信息 需求 。 比较 研究 读者 服务 图书 情报 学 
GES 关 = -20 -15 -15 -9 -9 -9 
CR 言 息 资 源 和 户 行为 移动 服务 公共 文化 服务 期 刊 评价 微 信 
差 11 12 15 23 25 26 
AN , | 、 本 
日 表 3 高 频 关键 词 的 绝对 词 频 与 相对 词 频 差 异 统计 
SZ 绝对 词 频 相对 词 频 
2016 年 ”2015 年 ”2014 年 ”2013 年 ”2012 年 ”累计 总 和 ”2016 年 ”2015 年 ”2014 年 ”2013 年 ”2012 年 ”累计 总 和 
En 9 13 17 25 37 101 0.000 0.001 0. 002 0.007 0.006 0.018 
se=e 情 报 分 析 23 20 20 17 21 101 0.006 0.004 0.004 0.002 0.006 0.023 
言 息 需求 18 13 20 22 25 98 0.003 0.001 0.004 0.005 0.006 0.020 
社交 网 络 23 18 18 22 18 99 0.007 0.003 0.003 0.005 0.006 0.024 
读者 服务 17 15 16 29 30 107 0.002 0.002 0.002 0.011 0.006 -0.023 
微 信 39 28 31 11 0 109 0.029 0.011 0.014 -0.001 0 0.055 
移动 服务 19 8 28 26 11 92 0.004 0.000 0.012 0.009 0.006 0.032 
户 需求 14 13 25 19 20 91 0.002 0.001 0.009 0.004 ”0.006 0.022 
信息 资源 14 11 22 44 48 139 0.001 0.001 0. 004 0.029 0.037 0.072 
信息 行为 22 28 36 30 23 139 0.004 0. 009 0.017 0. 009 0.004 0.043 
120 一 。_ 小 据 记 ” 0.025 一 。 “数据 库 ” 
100 二 一 类 绝对 词 频 0.02 > = 相对 词 频 
2 a -~ “情报 分 析 " 0015 De “情报 分 析 
Pe 绝对 词 频 6 相对 词 频 
0 T T T T 1 六 可 T T T T 1 
人 2 2 FE 四 村 寺内 对 局 2 Ey a 如 Ey es 要 让 相 1 对 河上 
年 份 年 份 


图 3 2012 -2016 年 “数据 库 ”“ 情 报 分 析 ” 的 绝对 词 频 及 累计 量 ( 左 ) 和 相对 词 频 及 累计 量 ( 右 ) 
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二 
有 


人 一 4 一 “社交 网 络 ” 
100 了 绝对 词 频 
80 
. 2 一 “信息 需求 ， 
二 绝对 词 频 
40 记忆 
I 。 一 算 一 “社交 网 络 ” 
” 二 要 累计 绝对 词 频 
和 = T T T T 1 
3 次 ,次 次 次 一 兴 一 “信息 需求 ” 
NN 累计 绝对 词 频 


0 一 4 一 “社交 网 络 ” 
0.025 相对 词 频 
0.02 < 
瑞生 ”一 而 一 “信息 需求 
0.015 a 相对 词 频 
0.01 一 
| 一 生 一 “社交 网 络 ” 
we ge 票 计 相对 词 上 
全 T T 一 T 1 
人 
必 必 ES 必 累计 相对 词 频 


图 4 2012 -2016 年 “社交 网 络 ”“ 信息 需求 "的 绝对 词 频 及 累计 量 ( 左 ) 和 相对 词 频 及 累计 量 ( 右 ) 


_ 一 4 一 “ 黎 信 ”绝对 
100 二 词 频 
> 4 
80 - ee 
a 一 重 - 一 “读者 服务 
60 2 > 绝对 词 频 
a 
40 - 7 全 
20 于 一时、 放 EL 一 和 一 “ 微 信 ” 累 计 
sa 绝对 词 频 
0 T T T 
合作 次 合 次 一 兴 一 “读者 服务 ” 
NN 昧 计 绝对 词 频 
年 份 


刘 4 绝对 词 频 
20 了 SS 一 四 一 “移动 服务 " 
谍 ee 累计 绝对 词 频 
必 次 次 履 次 一 X 一 “用 户 需 求 ” 
党 人 党 累计 绝对 词 频 


一 4 一 “短信 ”相对 
0.05 A 词 频 
0.04 4 
一 茵 一 “读者 服务 ” 
0 a 相对 词 频 
0.02 — x 
-~ i fe 、 
0.01 二 一 本 一 站 一 ee 
必 一 > 对 词 频 
0 T 3 pe 一 T 1 
交 让 小 次 次 一 兴 一 “读者 服务 ” 
RN Sg ES 2 累计 相对 词 频 
年 份 


一 4 一 “移动 服务 ” 
0.03 Se 相对 词 频 
0.02 > 一 一 yc XK 一 生 一 i 
el A 一 二 一 “移动 服务 ” 
0 Ng 累计 相对 词 频 
E> 2 名 “a 时 相生 上 
年 份 


图 6 2012 -2016 年 “移动 服务 ”用 户 需求 ”的 绝对 词 频 及 累计 量 ( 左 ) 和 相对 词 频 及 累计 量 ( 右 ) 


一 ?一 “信息 资源 ” 
绝对 词 频 


一 号 -一 “信息 行为 ” 
绝对 词 频 


一 血 一 “信息 资源 ” 
累计 绝对 词 频 


一 兴 一 “信息 行为 ” 
累计 绝对 词 频 


008 一 9 一 “信息 资源 ” 
二 过 相对 词 频 
0.06 A 
A 
/ “信息 行为 


< 相对 词 频 


0.04  - Pe 3— 
X 一 准 -~ “信息 资源 ” 
002 - SS 累计 相对 词 频 
0 - 惨 f CS 1 


x 一 “信息 行为 
次 次 惧 , 惧 次 累计 相对 词 频 
RR 
年 份 


图 7 2012 -2016 年 “信息 资源 “信息 行为 ”的 绝对 词 频 及 累计 量 ( 左 ) 和 相对 词 频 及 累计 量 ( 右 ) 
力 , 因 此 “ 微 信 ” 累计 相 对 总 词 频 较 “ 读 者 服务 "更 为 突 


Hi( 见 图 5)。G@ “移动 服务 "和 “用 户 需求 ” ,两 者 均 为 


波动 型 关键 词 ,前 者 峰值 高 于 后 者 ,突出 “移动 服务 ” 


的 


总 体 优势 , 且 累 计 相 对 总 词 频 较 大 ( 见 图 6)。(5)“ 信 


息 资源 ”和 “信息 行为 ” ,前 者 峰值 优势 明显 , 虽 2015、 
2016 年 度数 值 不 高 ,其 排名 仍 上 浮 ( 见 图 7)。 


针对 高 频 词 ,加 权 关 键 词 相 对 词 频 排序 中 ,上 浮 关 
键 词 是 “ 量 高 质 优 ” 型 和 “ 量 中 质 优 ” 型 ,也 即 增长 趋势 
大 峰值 优势 明显 高 频 旦 稳定 的 关键 词 。 基 于 Logis- 
tic 增长 规律 ,概念 频次 大 幅度 增长 为 新 兴 概 念 ,文献 
频次 增 速 渐 组 则 概念 达到 成 熟 期 "。 因 此 ,利用 加 权 
关键 词 相 对 词 频 模 型 ,可 以 快速 并 客观 地 找 出 品质 好 
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的 关键 词 , 挖 据 出 具有 发 展 潜力 的 关键 词 ,进而 揭示 学 
科 热 点 和 预测 发 展 趋势 。 

3.3.2 低频 关键 词 实验 结果 “主题 突变 是 指 在 某 一 
领域 中 , 随 着 某 一 事件 的 发 生 在 短 时 间 内 引起 关注 度 
改变 的 主题 变化 情况 。 随 着 时 间 推 移 ,突变 主题 有 可 
能 变 成 研究 热点 ,也 有 可 能 趋 弱 为 普通 主题 其 至 消逝 。 
因此 ,对 突变 词 的 监测 是 有 重要 意义 的 。 根 据 突变 词 


出 现 频次 的 时 间 变 化 ,将 主题 突变 类 型 分 为 上 升 型 下 
降 型 . 先 升 后 降 型 .突现 型 .稳定 型 。 而 低频 关键 词 
的 排名 变化 与 关键 词 突变 之 间 有 密切 关系 。 

分 别 在 每 个 排名 变化 量 阶段 选取 部 分 关键 词 ,对 
比 低频 词 前 后 排名 变化 情况 ( 见 表 4 和 图 8)。 其 中 ， 
负数 为 该 关键 词 在 相对 词 频 中 排名 低 于 绝对 词 频 排 
名 , 正 数 则 相反 。 


表 4 ”低频 关键 词 的 绝对 词 频 与 相对 词 频 差异 统计 


绝对 词 频 相对 词 频 
关键 词 排序 差 
2016 年 2015 年 2014 年 2013 年 2012 年 ”2016 年 2015 年 2014 年 2013 年 2012 年 
数据 素养 教育 —1064 12 0 0 0 0 0.000 12 
移动 社交 网 络 —906 8 2 0 0 0 0. 000 05 0. 000 05 
文化 扶贫 -856 8 0 0 0 0 0. 000 05 
文本 相似 度 一 461 4 0 0 3 1 0.000 07 0.000 06 0.00001 
本 lipraries 一 328 0 20 0 6 0 0.000 27 0.000 40 
本 童 图 书馆 -289 0 4 4 5 0 0.000 12 0.00010 0.000 10 
LC 政务 信息 资源 -247 8 0 0 3 0 0.000 13 0.000 12 
LC 洪 在 语义 分 析 100 2 2 3 0 0 0. 000 06 0.000 06 0. 000 06 
人 网络 计量 学 112 3 4 3 2 5 0.00021 0.00023 0.00020 0.00019 0.00019 
四 
a 兰 ee 00012 一 “一 数据 素养 教育 
CD a 一 里 一 移动 社交 网 络 
A 20 ee 一 和 一 文化 扶贫 
S 1 a 一 和 文本 相似 度 
~ 10 ne 二 人 
S< 5 儿童 图 书馆 儿童 图 书馆 
© 0 证 二 政务 信息 资源 一 一 政务 信息 资源 
刁 so RR Re 潜在 语义 分 析 潜在 语义 分 析 
一 一 网 络 计量 学 网 络 计量 学 


8 2012 -2016 五 年 间 部 分 低频 关键 词 累 计 绝 对 词 频 折线 图 ( 左 ) 和 累计 相对 词 频 折线 图 ( 右 ) 


结果 表明 ,排名 变化 突出 的 关键 词 多 表现 为 又 升 
又 降 ,由 于 低频 词 的 词 频 变 化 比 高 频 词 更 为 敏感 ,又 升 
骤 降 的 频次 导致 词 频 变化 显著 , 而 关键 词 排名 也 产生 
显著 变化 。 因 此 ,通过 统计 低频 关键 词 排名 变化 量 可 
以 侧面 探测 突变 词 ,以 及 总 结 出 排名 变化 量 与 突变 主 
题 类 型 关系 的 表征 关系 。 从 表 4 可 以 看 出 ， 数 据 素养 
教育 “libraries“ 政 务 信息 资源 "累计 绝对 词 频 量 低 ， 
然而 近 5 年 出 现 突 增 ( 累计 相对 词 频 量 高 ) ,有 望 成 为 
未 来 的 研究 趋势 。 

排名 下 降 量 显著 的 关键 词 主要 呈现 为 突显 型 主题 
突变 。 如 数据 素养 教育 、 移 动 社交 网 络 文化 扶贫 ,又 
升 又 降 的 频次 导致 突变 机 会 较 大 ,这 表明 此 类 研究 有 
着 社会 时 效 性 ,同时 研究 热度 逐渐 上 升 。 
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排名 上 升 量 显 著 的 关键 词 主 要 呈现 为 稳定 型 主题 
突变 ,如 潜在 语义 分 析 、 网 络 计量 学 ,这 表明 其 频次 波 
动 不 大 或 者 频次 突 增 ,也 表明 该 研究 逐渐 稳定 ,未 来 也 
处 于 稳定 的 发 展 状态 中 ,或 者 该 研究 视角 已 经 结合 其 
他 学 科 内 容 成 为 新 的 研究 主题 。 


针对 目前 基于 对 词 频 的 简单 统计 和 粗略 分 析 ,以 
揭示 学 科 领 域 热点 及 趋势 的 普遍 情况 ,笔者 提出 加 权 
关键 词 相对 词 频 WRKFM 模型 ,构建 年 度 - 关键 词 的 
词 频 和 矩阵 ,依据 矩阵 水 平 与 垂直 两 个 维度 加 权 人 处 理 关 
键 词 词 频 , 导 出 相对 词 频 计算 公式 ,得 到 关键 词 加 权 综 
合 分 值 ,以 获得 更 有 效 的 关键 词 排 序 。 从 而 更 为 准确 、 
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A New Model for Hotspot and Trend Analysis Based on Weighted Keywords 
Feng Guohe’ Kong Yongxin Xiao Jieqiong 
The Department of Information Management, School of Economics & Management, 
South China Normal University, Guangzhou 510006 
“Department of Information Resources Management, Business School, Nankai University, Tianjin 300071 
Abstract: | Purpose/significance | Im order to overcome the limitation of the absolute word frequency analysis of the 

keywords, the hot spots and trends in the field are explored by using the multi -factor weighting and ranking of the key- 
words. [Method/process | It constructs the annual -key frequency matrix, processes the word frequency of horizontal and 
vertical weighting, and derives the formula of relative word frequency to get the weighted comprehensive score of key- 
words, in order to obtain more effective keyword ranking. [ Result/conclusion | Based on keyword weighted ranking, 
three types of keywords, including keywords in large quantities & high quality, keywords in little quantities & high quali- 
ty, and burst terms, can be identified, greatly benefiting focus mining and trends analysis. 
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